13장. 벤치마크 읽는 법
이 장의 목표 모델 카드의 점수표를 읽고 “이 모델이 뭘 잘하고 뭘 못하는지” 를 자기 눈으로 평가할 수 있게 됩니다.
“MMLU 1등!“에 휘둘리지 않게 됩니다.
13.1 벤치마크가 뭔가?
모델의 객관적 실력을 재기 위해 미리 만들어둔 시험 문제 세트입니다.
예:
MMLU 시험 문제 예
─────────────────
주제: 미국사
문제: 1776년에 일어난 사건은?
선택지: A. 독립선언 B. 남북전쟁 C. ...
정답: A
이런 문제 수천~수만 개를 모델에 풀게 하고 점수(정답률)를 매깁니다.
13.2 자주 보는 벤치마크 10가지
모델 카드에 가장 많이 등장하는 것들.
일반 지식·언어이해
| 이름 | 측정 |
|---|---|
| MMLU | 57개 분야 객관식 (역사·과학·법 등) |
| MMLU-Pro | MMLU의 어려운 버전 |
| C-Eval | 중국어 일반 지식 |
| CMMLU | 또 다른 중국어판 |
| HellaSwag | 상식 추론, 문장 완성 |
수학
| 이름 | 측정 |
|---|---|
| GSM8K | 초중등 수학 단답형 |
| MATH | 고등·대학 수학 (어려움) |
| AIME | 미국 수학 올림피아드 |
코딩
| 이름 | 측정 |
|---|---|
| HumanEval | Python 함수 작성 |
| MBPP | Python 코딩 기초 문제 |
| LiveCodeBench | 최신 알고리즘 문제 |
| SWE-bench | 실제 GitHub 이슈 해결 (Agent 평가) |
추론·지시 따르기
| 이름 | 측정 |
|---|---|
| IFEval | 형식·길이 등 지시 정확 이행 |
| BBH | 복잡한 추론 모음 |
| ARC-Challenge | 과학 추론 |
한국어
| 이름 | 측정 |
|---|---|
| KMMLU | MMLU의 한국어 버전 |
| HAERAE | 한국어 종합 |
| KoBest | 한국어 다양한 과제 |
멀티모달
| 이름 | 측정 |
|---|---|
| MMMU | 멀티모달 대학수준 |
| DocVQA | 문서·차트 이해 |
| MathVista | 그림 포함 수학 |
긴 컨텍스트
| 이름 | 측정 |
|---|---|
| Needle in a Haystack (NIAH) | 긴 문맥 안에서 정보 찾기 |
| RULER | 긴 컨텍스트 종합 |
| LongBench | 긴 문서 작업 종합 |
13.3 점수의 일반적 감각
점수만 보면 막막하니 대략 감각을 잡아둡니다.
MMLU (보통 0~100)
50점대 → 약함 (작은 옛 모델)
60점대 → 평범
70점대 → 좋음 (요즘 8B 모델 수준)
80점대 → 매우 좋음 (32B급 좋은 모델)
85점 이상 → 최상위 (GPT-5, Claude Opus 4 등)
HumanEval
30~50% → 옛 모델
50~70% → 평범한 코딩 모델
70~85% → 좋은 코딩 모델 (Qwen Coder 32B)
85% 이상 → 매우 좋음
GSM8K
50% 이하 → 수학 약함
70~85% → 평범
90% 이상 → 잘함
95% 이상 → 매우 잘함 (Reasoning 모델)
숫자 자체보다 “동급 모델끼리의 비교“가 중요합니다. 같은 8B 모델끼리 비교해야 의미가 있습니다.
13.4 벤치마크의 함정 3가지
점수를 너무 믿으면 다칩니다.
함정 1 — Data Contamination(데이터 오염)
벤치마크 문제가 모델 학습 데이터에 이미 들어있을 수 있습니다.
이러면 모델이 “푼” 게 아니라 “외운” 거에 가깝습니다.
새 벤치마크일수록 신뢰도 높음 오래된 벤치마크는 의심하기
함정 2 — Overfitting to Benchmark
회사들이 벤치마크 점수를 올리려고 그 시험을 잘 보도록 따로 튜닝합니다.
학교에서 모의고사만 잘 보는 학생 같습니다.
실전 업무에선 점수만큼 안 좋을 수 있습니다.
함정 3 — 평가 방식 차이
같은 MMLU여도
- 객관식만? CoT(생각 과정) 포함?
- 5-shot? Zero-shot?
- 평균? 가중치?
방식이 다르면 점수가 5~10점씩 출렁입니다.
같은 모델, 같은 시험인데 누가 측정했냐에 따라 결과가 다를 수 있습니다.
13.5 벤치마크보다 좋은 것 — 내 작업 테스트
결국 가장 정확한 벤치마크는 “내 업무 질문에 대한 답“입니다.
이걸 위해 나만의 테스트 셋을 만들어두면 좋습니다.
자주 묻는 형태로 10~20개:
- 회사 도메인 질문 5개
- 코드 작성 3개
- 문서 요약 3개
- 한국어 작문 3개
- 환각 테스트 (모르는 사실) 2개
- 거절 테스트 (위험 질문) 2개
이걸 새 모델이 나올 때마다 똑같이 시켜보면 나에게 맞는 모델을 점수표 없이 가릴 수 있습니다.
(40장에서 다시 자세히)
13.6 신뢰할 만한 리더보드
벤치마크 점수를 모아 보여주는 사이트들.
| 사이트 | 특징 |
|---|---|
| lmarena.ai | 사람이 직접 비교 평가 (Chatbot Arena) |
| artificialanalysis.ai | 가격·속도·품질 종합 |
| Hugging Face Leaderboards | 자동 평가 다수 |
| EvalsArena / OpenLLM Leaderboard | 학술적 비교 |
가장 추천:
- lmarena.ai — 사용자가 두 답변을 직접 비교 투표 점수 조작에 강함
13.7 모델 카드 점수표 읽기 실전
대표적인 점수표 형태.
| Benchmark | Score |
|--------------|-------|
| MMLU | 83.5 |
| MMLU-Pro | 68.2 |
| GSM8K | 92.1 |
| HumanEval | 85.4 |
| MATH | 65.3 |
| IFEval | 79.0 |
이걸 읽는 법.
- 내 용도와 관련된 줄만 본다
- 코딩 → HumanEval, LiveCodeBench
- 수학 → GSM8K, MATH
- 일반 지식 → MMLU
- 지시 따르기 → IFEval
- 동급 모델과만 비교
- 같은 8B / 32B / 70B 끼리
- 출처를 본다
- 회사가 자체 보고 vs 제3자 측정
- 약점도 찾는다
- 모델 카드에 빠진 벤치마크가 의심스러우면 외부 확인
13.8 흔히 좋아 보이지만 못 미더운 표
가끔 모델 카드에 이런 표가 있습니다.
Qwen3-32B (Ours) ───── 85.5
GPT-5 ───── 82.0
Claude Opus 4 ───── 78.0
Llama 3.3 70B ───── 75.0
오케이, 의심해봅니다.
- 측정 시기는?
- 평가 방식은 동일?
- 자체 보고 점수?
- 그 모델들이 한 달 전 버전 아닌가?
회사가 자기 모델 점수를 직접 발표하면 항상 의심.
가장 안전한 비교는 다시 한 번:
- lmarena.ai 의 실사용자 투표
- 내 테스트 셋(40장)으로 직접 비교
이 장에서 기억할 한 가지
벤치마크는 참고용 1, 결정적 근거 0.
동급 모델 사이의 비교에서만 의미 있고, 내 업무 질문 10개 가 항상 더 정확합니다.
점수가 비슷하면 lmarena.ai 의 사람 투표를 보세요.
손으로 해볼 것
1. 같은 크기 두 모델 비교 표 만들기
Qwen3-32B-Instruct 와 Llama-3.3-70B-Instruct 의
모델 카드 점수를 다음 표에 옮겨보세요.
| 항목 | Qwen3-32B | Llama-3.3-70B |
|---|---|---|
| MMLU | ? | ? |
| HumanEval | ? | ? |
| IFEval | ? | ? |
| GSM8K | ? | ? |
같은 32B 모델끼리 / 같은 70B 모델끼리도 한 번씩 비교해보세요.
2. lmarena.ai 둘러보기
lmarena.ai 에 들어가서
같은 질문에 두 모델이 답하는 걸 보고
어느 쪽이 더 마음에 드는지 투표해보세요.
5~10번 반복하면 “리더보드 점수 vs 내 취향“이 달라질 수 있다는 걸 체감하게 됩니다.
다음 장에서는 Dense 모델과 MoE 모델의 차이 를 정리합니다.
“30B인데 활성 파라미터 3B” 같은 표기를 한 번에 이해할 수 있게 됩니다.